许多现有人员的重新识别(RE-ID)方法取决于特征图,这些特征图可以分区以定位一个人的部分或减少以创建全球表示形式。尽管部分定位已显示出显着的成功,但它使用了基于位置的分区或静态特征模板。但是,这些假设假设零件在给定图像或其位置中的先前存在,忽略了特定于图像的信息,这些信息限制了其在挑战性场景中的可用性,例如用部分遮挡和部分探针图像进行重新添加。在本文中,我们介绍了一个基于空间注意力的动态零件模板初始化模块,该模块在主链的早期层中使用中级语义特征动态生成零件序列。遵循自发注意力的层,使用简化的跨注意方案来使用主链的人体部分特征来提取各种人体部位的模板特征,提高整个模型的判别能力。我们进一步探索零件描述符的自适应加权,以量化局部属性的缺失或阻塞,并抑制相应零件描述子对匹配标准的贡献。关于整体,遮挡和部分重新ID任务基准的广泛实验表明,我们提出的架构能够实现竞争性能。代码将包含在补充材料中,并将公开提供。
translated by 谷歌翻译
视频中的实时和在线行动本地化是一个关键但极具挑战性的问题。准确的行动定位需要利用时间和空间信息。最近的尝试通过使用计算密集的3D CNN架构或高度冗余的双流架构来实现这一目标,使它们既不适用于实时在线应用程序。为了在高度挑战的实时约束下完成活动本地化,我们提出利用基于快速高效的关键点的边界框预测到空间本地化动作。然后,我们介绍一种管链接算法,其在闭塞存在下在时间上保持动作管的连续性。此外,我们通过将时间和空间信息与级联输入组合到单个网络的级联输入来消除对双流架构的需要,允许网络从两种类型的信息中学习。使用结构相似索引图有效地提取了时间信息,而不是计算密集的光学流量。尽管我们的方法简单,我们的轻质端到端架构在挑战的UCF101-24数据集上实现了最先进的框架地图,达到了74.7%,展示了以前最好的在线方法的性能增益为6.4% 。与在线和离线方法两者相比,我们还实现了最先进的视频地图结果。此外,我们的模型实现了41.8 FPS的帧速率,这是对当代实时方法的10.7%。
translated by 谷歌翻译